Machine Learning Gini Index এবং Information Gain এর ধারণা গাইড ও নোট

516

Gini Index এবং Information Gain হল দুটি গুরুত্বপূর্ণ পরিমাপ যা Decision Tree মডেল তৈরি করতে ব্যবহৃত হয়। এই দুটি পরিমাপ মূলত বিশ্লেষণ (splitting) বা বিভাজন (partitioning) করার সময় শ্রেণীবদ্ধকরণের জন্য শ্রেণীগুলির মধ্যে পার্থক্য বা বৈচিত্র্য মাপতে ব্যবহৃত হয়।

১. Gini Index (Gini Impurity)

Gini Index বা Gini Impurity একটি পরিমাপ যা ব্যবহৃত হয় এটি নির্ধারণ করতে যে একটি নির্দিষ্ট নোডে (node) ডেটার মধ্যে কতটা অশুদ্ধতা (impurity) বা বৈচিত্র্য (heterogeneity) রয়েছে। এটি একটি decision tree এর গাছের বিভাজন তৈরি করতে সাহায্য করে।

Gini Index এর মান 0 থেকে 1 এর মধ্যে থাকে:

0 মানে হলো সেই নোডটি সম্পূর্ণরূপে পরিষ্কার, অর্থাৎ সেখানে শুধু এক ধরনের শ্রেণী আছে।
1 মানে হলো সেখানে সমস্ত শ্রেণীর সমান সম্ভাবনা রয়েছে।

Gini Index গণনা করার সূত্র:

$Gini(D) = 1 - \sum_{i=1}^{k} p_i^2$

এখানে, $p_i$ হলো শ্রেণী $i$ -এর জন্য সম্ভাবনা (probability) এবং $k$ হলো শ্রেণীর সংখ্যা।

Gini Index এর উদাহরণ:

ধরা যাক, একটি নোডে 100টি উদাহরণ আছে। এর মধ্যে 70টি শ্রেণী ১ এবং 30টি শ্রেণী ২। তাহলে Gini Index হবে:

$Gini(D) = 1 - ( (70/100)^2 + (30/100)^2 )$ $Gini(D) = 1 - ( 0.49 + 0.09 ) = 1 - 0.58 = 0.42$

এটি নির্দেশ করে যে 42% অশুদ্ধতা রয়েছে, এবং সিদ্ধান্ত নেওয়ার জন্য এই নোডের বিভাজনটা ভালো হতে পারে।

২. Information Gain

Information Gain হল একটি পরিমাপ যা নির্ধারণ করে কোন বৈশিষ্ট্য (feature) সবচেয়ে ভালভাবে ডেটা সেটটিকে বিভাজন করতে পারে। এটি মূলত entropy এর ভিত্তিতে কাজ করে এবং একটি গাছের নোডে বিভাজন করার ফলে যে তথ্য লাভ (information gain) হবে তা মাপা হয়।

Information Gain এর মাপকাঠি হলো Entropy (তথ্যের পরিমাণ বা বিশৃঙ্খলা), এবং এটি গাছের বিভাজন করার জন্য কতটা সঠিক তথ্য পাওয়া যাচ্ছে তা পরিমাপ করে।

Information Gain এর সূত্র:

$Information\ Gain(D, A) = Entropy(D) - \sum_{v \in Values(A)} \frac{|D_v|}{|D|} \times Entropy(D_v)$

এখানে:

$D$ হলো মূল ডেটাসেট।
$A$ হলো বৈশিষ্ট্য (feature) যা দ্বারা বিভাজন হচ্ছে।
$D_v$ হলো বৈশিষ্ট্য $A$ এর মান $v$ এর জন্য সাবসেট।
$|D|$ এবং $|D_v|$ হল ডেটাসেটের আকার (number of instances)।

Information Gain এর উদাহরণ:

ধরা যাক, আমাদের কাছে একটি ডেটাসেট রয়েছে, যেখানে দুটি বৈশিষ্ট্য আছে: "Weather" এবং "Temperature"। আমরা যাচাই করতে চাই কোন বৈশিষ্ট্যটি শ্রেণীভুক্তকরণের জন্য আরও বেশি তথ্য সরবরাহ করে। আমরা প্রতিটি বৈশিষ্ট্যের জন্য entropy এবং information gain গণনা করব। যেই বৈশিষ্ট্যটির বেশি information gain থাকবে, সেটি সিদ্ধান্ত গাছের জন্য সেরা বৈশিষ্ট্য হিসেবে ব্যবহার হবে।

Gini Index এবং Information Gain এর মধ্যে পার্থক্য:

বিপরীত পরিমাপ:
- Gini Index ছোট হলে ভাল (যে নোডে অশুদ্ধতা কম, সেটি ভালো)।
- Information Gain বড় হলে ভাল (যত বেশি তথ্য লাভ হবে, তত ভালো)।
কিভাবে কাজ করে:
- Gini Index শুধুমাত্র বৈশিষ্ট্যের মধ্যে অশুদ্ধতা মাপবে।
- Information Gain entropy এর পরিবর্তন মাপবে, যা সিদ্ধান্ত নেয়া সম্পর্কে তথ্য প্রদান করে।
ব্যবহার:
- Gini Index সাধারণত CART (Classification and Regression Tree) মডেল তৈরি করতে ব্যবহৃত হয়।
- Information Gain সাধারণত ID3 (Iterative Dichotomiser 3) এবং C4.5 অ্যালগরিদমে ব্যবহৃত হয়।

উপসংহার

Gini Index এবং Information Gain দুটি মেট্রিক, যা ডেটা সেটের শ্রেণীবদ্ধকরণের জন্য শ্রেণীগুলির মধ্যে পার্থক্য বা বৈচিত্র্য মাপতে ব্যবহৃত হয়।
Gini Index অশুদ্ধতা পরিমাপ করে এবং Information Gain সিদ্ধান্ত নেয়ার জন্য তথ্য লাভের পরিমাণ পরিমাপ করে।

Content added By

SATT Academy

Decision Tree কী এবং কিভাবে কাজ করে? Pruning Techniques এবং Overfitting সমস্যা সমাধান Decision Tree এর Strength এবং Limitations

Machine Learning Gini Index এবং Information Gain এর ধারণা গাইড ও নোট

১. Gini Index (Gini Impurity)

Gini Index এর উদাহরণ:

২. Information Gain

Information Gain এর উদাহরণ:

Gini Index এবং Information Gain এর মধ্যে পার্থক্য:

উপসংহার

Promotion

Satt AI

Hi, আমি SATT AI!

Machine Learning Gini Index এবং Information Gain এর ধারণা গাইড ও নোট

১. Gini Index (Gini Impurity)

Gini Index এর উদাহরণ:

২. Information Gain

Information Gain এর উদাহরণ:

Gini Index এবং Information Gain এর মধ্যে পার্থক্য:

উপসংহার

All Notifications

Promotion

Satt AI

Hi, আমি SATT AI!